Классическое обучение с учителем

Эта глава посвящена обучению с учителем (supervised learning) — направлению машинного обучения, где алгоритм учится на размеченных данных.

Это означает, что каждому объекту из обучающего множества XX сопоставлено известное целевое значение из множества yy. Основная задача здесь — обучить алгоритм, который позволяет предсказывать целевую переменную для новых объектов.

Глава состоит из шести параграфов.

Во втором мы сформулируем задачи классификации и регрессии и расскажем, как решать эти задачи с помощью линейных моделей, в которых предсказываемое значение вычисляется как взвешенная сумма входных признаков.

Третья посвящена методам, которые не ищут глобальные закономерности в данных, а основываются на локальном предположении о том, что свойства объекта определяются его соседями.

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.

Центральное место здесь занимает метод k-ближайших соседей (k-nearest neighbors, KNN). Мы обсудим его преимущества и недостатки, а также рассмотрим подходы для эффективного поиска ближайших объектов, что критически важно для производительности этих алгоритмов.

В четвёртом параграфе мы изучим решающие деревья — семейство моделей, которые предсказывают целевую переменную через последовательность простых решающих правил (предикатов).

Решающее дерево строит сложную решающую поверхность путём иерархического разделения пространства признаков. Этот процесс интуитивно понятен и во многом имитирует естественный для человека механизм принятия решений, что делает такие модели хорошо интерпретируемыми.

Пятый параграф ответит на вопрос, как объединить несколько моделей, чтобы получить качество выше, чем у каждой из них по отдельности. Мы подробно разберём процедуры смешивания алгоритмов, включая стекинг, бэггинг и построение случайных лесов. Эти техники позволяют существенно повысить точность и устойчивость предсказаний, компенсируя слабости отдельных базовых моделей.

Завершает обзор шестой параграф, посвящённый градиентному бустингу — самому мощному семейству не-нейросетевых моделей.

В отличие от независимого обучения в бэггинге, бустинг реализует идею последовательного построения ансамбля, где каждый следующий алгоритм стремится исправить ошибки предыдущих. Мы детально изучим градиентный бустинг решающих деревьев (GBDT), который является стандартом индустрии для работы с неоднородными табличными данными, выигрывая большинство современных соревнований.

Давайте приступим!

Чтобы добавить в заметки выделенный текст, нажмите Command + E
Предыдущий параграф1.3. Машинное обучение

Что такое машинное обучение и каким оно бывает. Основные понятия машинного обучения: признаки, таргеты, метрики, переобучение

Следующий параграф2.2. Линейные модели

Линейные модели от линейной до логистической регрессии. Регуляризация, работа с категориальными признаками, многоклассовая классификация